맨위로가기

교육 평가

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

교육 평가는 교육의 목적과 성과를 평가하는 활동으로, 학생의 변화와 행동을 관찰하여 평가 기준에 비추어 해석하고 피드백하는 과정을 포함한다. 교육 측정, 절대평가, 상대평가 등이 교육 평가의 한 예시이며, 교육 평가 기준 공동 위원회는 교육 평가를 위한 기준 세트를 발표했다. 교육 평가는 성적 평가, 수업 평가, 학교 평가 등 다양한 형태로 이루어지며, 측정, 총평, 평가를 포함하는 넓은 의미의 평가와 좁은 의미의 평가로 구분된다. 교육 평가는 진단 평가, 형성 평가, 총괄 평가로 분류되며, 평가 방법에는 상대 평가, 절대 평가, 도달도 평가 등이 있다.

더 읽어볼만한 페이지

  • 교육 평가 - 기능적 행동 평가
    기능적 행동 평가는 응용 행동 분석에서 문제 행동을 유지하는 변인을 식별하는 방법으로, 문제 행동의 기능적인 선행 자극과 결과를 파악하여 문제 행동의 원인이 되는 교육 환경 내 요인을 분석하고 적절한 치료법과 긍정적인 지원 계획을 수립하는 데 기여한다.
  • 교육 평가 - 총괄평가
    총괄 평가는 학습 활동 후 학습 성과를 측정하여 학생의 강점과 약점을 파악하고 교육 프로그램의 효과성을 검증하는 평가 방법이다.
  • 글로벌세계대백과를 인용한 문서/{{{분류 - 공 (악기)
    공은 금속으로 제작된 타악기로, 다양한 문화권에서 의식, 신호, 음악 연주 등에 사용되며, 형태와 용도에 따라 여러 종류로 나뉜다.
  • 글로벌세계대백과를 인용한 문서/{{{분류 - 국무회의
    국무회의는 대한민국 대통령을 의장으로, 예산, 법률안, 외교, 군사 등 국정 현안을 심의하는 중요한 기관이며, 대통령, 국무총리, 국무위원으로 구성되고, 정례회의는 매주 1회, 임시회의는 필요에 따라 소집된다.
  • 글로벌세계대백과를 인용한 문서/{{{분류2 - 공 (악기)
    공은 금속으로 제작된 타악기로, 다양한 문화권에서 의식, 신호, 음악 연주 등에 사용되며, 형태와 용도에 따라 여러 종류로 나뉜다.
  • 글로벌세계대백과를 인용한 문서/{{{분류2 - 국무회의
    국무회의는 대한민국 대통령을 의장으로, 예산, 법률안, 외교, 군사 등 국정 현안을 심의하는 중요한 기관이며, 대통령, 국무총리, 국무위원으로 구성되고, 정례회의는 매주 1회, 임시회의는 필요에 따라 소집된다.
교육 평가
지리 정보
기본 정보
분야교육
하위 분야교육 측정
관련 분야통계학
심리학
교육학
목적
목적교육 프로그램, 교육 정책 및 학습자의 학업 성취도 개선을 위한 정보 제공
평가 방법
양적 평가 방법표준화 시험
선다형 시험
질적 평가 방법포트폴리오 평가
수행 평가
관찰
면담
평가 유형
형성 평가학습 과정 개선을 위해 사용
총괄 평가학습 결과 측정 및 판단을 위해 사용
주요 개념
타당도평가 도구가 측정하려는 것을 정확하게 측정하는 정도
신뢰도평가 결과의 일관성 및 안정성
객관도평가 결과의 주관적인 편향 정도
공정성평가가 모든 학습자에게 동등하게 적용되는 정도
교육 통계
통계적 방법기술 통계
추론 통계
영향
영향교육 과정 설계
교육 정책 결정
학생 선발
교사 평가
학교 평가
관련 기관
관련 기관교육부
한국교육과정평가원
대학
연구소

2. 교육 평가의 의미

교육 평가는 교육 목적이나 이념을 기준으로 교육 계획, 시설, 지도를 통해 얻은 성과를 나타내는 것이다. 학생의 의식과 행동 변화를 관찰, 파악하여 평가자의 평가 기준에 비추어 해석하고, 이를 앞으로의 행동에 반영(피드백)하는 것이 교육 평가이다.

교육 평가는 교육 상태 관찰과 평가자의 가치 기준이라는 두 가지 요소를 포함한다. 교육 상태를 관찰하고 평가 근거를 만드는 것은 교육 측정과 관련이 있다. 평가 기준에 비추어 의미를 추출하는 것이 좁은 의미의 교육 평가이며, 절대 평가, 상대 평가, 개인 내 평가는 '좁은 의미의 평가'의 한 예이다. 교육 평가는 관찰이나 측정을 통해 평가 자료를 모으고 해석하는 넓은 의미의 평가와 자료 해석 부분만을 의미하는 좁은 의미의 평가로 구분된다.[2]

교육 평가 관점은 크게 측정, 총평, 평가 세 가지가 있다. 교육 평가 기준 공동 위원회는 1988년 ''인사 평가 기준'', 1994년 ''프로그램 평가 기준''(제2판), 2003년 ''학생 평가 기준''을 발표했다.

교육 평가는 교육 관련 활동 개선을 위해 실시되며, 아동, 학생의 성적 평가 외에도 수업 평가, 교사의 자체 수업 평가, 교사 간 상호 수업 평가, 대학 등의 학교 평가 등 다양한 관점과 상황에서 이루어진다.

학교 평가는 대학 랭킹이나 등급 매김과 동일시되기도 한다. 현대 일본에서는 대학이 스스로 점검 및 평가를 실시하고 그 결과를 공표하며(학교교육법 제109조), 이러한 자기 평가 및 자기 점검 활동도 교육 평가와 관련이 있다.

2. 1. 측정

측정은 일정한 기준을 유지하여 교육 관련 현상에 대한 수량적 자료를 구하는 것을 말한다. 관찰법과 같이 주관적인 방법은 제외하고, 비교적 엄격한 객관적 자료를 구한다. 신장, 체중, 중량 등은 자, 저울, 스톱워치 등으로 측정하고, 지식, 사상, 사고력 등은 테스트, 특히 표준화검사를 통해 수량적 자료를 얻는다.[3]

측정 단위는 센티미터(cm)나 그램(g)을 사용하지만, 지식검사나 학력표준 검사의 편차치 척도에서는 1/10S·D 값을 측정 단위로 사용한다. 길이, 무게 측정에서는 영점이 기준점이지만, 편차치 척도에서는 -5S·D 점을 측정 기준점으로 간주한다. 학력, 성격 등에 대한 교육 측정은 물리학적 측정만큼 정밀하지는 않지만, 가능한 한 측정 자료를 활용하여 객관적이고 적극적인 평가를 시도한다. 이러한 교육 평가는 19세기 말부터 20세기 초에 걸쳐 진행된 교육 측정 운동에서 비롯되었다.[3]

2. 2. 총평

총평(assessment영어) 또는 사정(査定)은 개인의 행동 특성을 특별한 환경, 특별한 과업, 준거 상황에 관련시켜 판정하려는 것이다. 이 용어는 윌리엄 H. 머레이(William H. Murray)가 1938년에 쓴 《성격의 탐구》에서 처음 사용되었으며, 이후 OSS 총평(1948)에서 사용되면서 널리 알려지게 되었다.[4]

총평의 핵심은 개인과 환경의 상호작용에 관심을 갖는다는 점이다. 머레이는 인간의 행동 특성을 평가하기 위해 인간의 욕구 체제와 환경의 압력 체제로 나누어 그 사이의 역동 관계를 분석했는데, 이는 인간과 환경의 상호작용을 분석하려는 것이다. 역할 이론(role theory)도 환경이 요구하는 역할과 개인이 이 환경 속에서 수행해야 할 역할과의 상호관계를 효능적으로 분석·진단하는 데 있다.

따라서 총평의 분석 방법은 개인이 달성해야 할 어떤 준거의 분석과 이 개인이 생활하고 학습하고, 작업해야 할 환경이 강요하는 심리적 압력, 요구하는 역할을 결정할 뿐만 아니라 그 사이에 존재하는 계층적 질서, 일관성 및 갈등을 분석·결정하는 것이 중요한 목표가 된다.

총평에서 개인에 관한 정보 수집은 양적·질적 형태의 다양한 형태가 되며, 어떤 것은 고도로 구조화된 객관식 검사 형태가 될 수 있는가 하면 어떤 것은 비구조화된 투사적 방법(projective technique)도 쓰일 수 있다. 흔히 총평에서 사용하는 증거 수집 방법으로 객관화된 검사 이외에 자기 보고, 관찰, 면접, 장면 검사, 역할 연출, 자유 연상법 등이 쓰인다.

총평의 용도는 흔히 예언, 실험, 분류에 쓰인다. 지금까지 총평에서는 주로 환경의 특성, 준거의 특성에 관한 분석에 치중해 왔다.[4]

2. 3. 평가

평가(evaluation영어)는 특수한 경험에 의해 학생에게 일어난 변화의 정도를 결정하는 데 관심이 있다. 평가는 예언·실험·교수 프로그램의 효과 판정에 쓰이며 사회가치에 비추어 본 교육목표의 달성도를 진단한다.[2]

평가·측정·총평은 서로 그 관점이 다르기 때문에 구별되기도 하지만 교육 실제에서는 서로 보완적인 관계에서 차용되어야 한다. 측정에서는 규준 집단에 비추어 본 개인의 양적(量的) 기술에 강조점을 두나, 평가는 사회치(교육목적)에 비춰본 양적 및 질적 기술을 강조하고, 총평에서는 효능적(效能的) 기능 혹은 전체 적합도에 비추어 본 질적 기술을 강조한다. 또 측정에서는 객관도와 신뢰도를 중시하나 평가에서는 객관도와 신뢰도는 부차적인 문제이고 내용의 타당도를 중시한다. 총평에서는 신뢰도와 객관도도 고려하나 구인타당도(構因妥當度)를 중시한다. 또 검사의 주안점을 측정은 개인의 정적(靜的) 행동을 횡단적 방법으로 하나, 평가에서는 개인의 변화에 주안을 두되 종단적 방법으로 연구한다. 총평에서는 개인과 환경과의 역동성에 주안을 두되 상황에 비춰 종단적으로 연구한다.[5]

3. 교육 평가의 역사

고대 한국(고조선)에서 시작된 과거제는 면접, 구두시험, 필기시험 등을 통해 교육 효과와 개인의 능력을 평가한 대표적인 예시이다.[6]

서양에서는 19세기 후반, 주관적인 평가 방식의 낮은 신뢰성에 대한 반성이 일어났고, 객관적인 평가 방법을 위한 연구가 시작되었다. 1864년 영국의 피셔(G. Fisher)는 척도부(尺度簿)를 연구했고, 1894년 미국의 라이스(J. M. Rice)는 영어 스펠링 객관 테스트를 개발하여 커리큘럼 근대화에 기여했다.[6]

20세기에는 교육 보급, 커리큘럼 제작, 학생 편성, 교육 자료 등 다양한 과제와 심리학의 발전으로 객관적 측정의 필요성이 더욱 커졌다. 미국의 손다이크(E. L. Thorndike)는 '측정 운동'을 주도하며 표준화된 테스트를 통해 지도 효과를 객관적으로 측정하고자 했다. 1908년 스토어(C. W. Store)의 산수 표준화 검사를 시작으로 여러 교과의 표준화 검사가 제작, 공표되었다.[6]

교사들은 자신이 만든 객관적 테스트를 통해 교육 효과를 측정하기도 했다. 이는 기존의 논문체 테스트보다 채점의 객관성과 문제 제시의 다양성 면에서 우수했다. 이러한 객관 테스트의 고안과 보급에는 메콜(W. A. Mecall)의 공헌이 컸다.[6]

1905년 프랑스의 비네(A. Binet)는 최초의 지능 측정를 고안했고, 이후 미국에서 지능 검사는 다양한 발전을 이루었다. 퍼널드(G. G. Fernald)는 성격 분야의 측정을 시도하기도 했다.[6]

1930년을 전후하여 교육 측정 운동에 대한 반성과 함께 새로운 교육 평가 사상이 나타났다. 교육 측정은 객관적인 평가를 위해 수량적인 자료를 중시했지만, 교육의 목적과 가치 추구의 중요성을 간과하고, 측정하기 어려운 학생의 가치관, 태도, 감상 등을 무시하는 경향이 있었다. 그러나 1920년경 새로운 심리학의 탄생과 신교육 운동의 발전으로 인간을 지적, 사회적, 적극적, 신체적 종합체로 파악하는 관점이 대두되면서, 수량적 측정만으로는 한계가 있다는 인식이 확산되었다. 이에 따라 '교육 측정'에서 '교육 평가'로 기본 개념이 전환되었다.[6]

4. 교육 평가의 유형

교육 평가 기준 공동 위원회는 교육 평가를 위한 세 가지 기준 세트를 발표했다. 1988년에는 '인사 평가 기준'[1]이, 1994년에는 '프로그램 평가 기준'(제2판)[2]이, 2003년에는 '학생 평가 기준'[3]이 출판되었다.

4. 1. 진단 평가

진단평가(診斷評價, diagnostic evaluation)는 형성 평가·총합 평가와 마찬가지로 학생 행동의 어느 측면에 관해 가치화(價値化)·의사결정·기술(記述)·분류를 목적으로 한다. 그러나 교수가 시작되는 시초에 학생을 적절히 배치하려는 것과 학생이 학습에서 갖는 결함의 진단이라는 두 가지 목적이 진단평가를 다른 유형의 평가와 구별시키는 주된 특징이다.

교수가 시작되기 이전에 실시하는 진단평가는 학생이 학습을 시작하기 전에 그가 어떤 출발점에 놓여 있는가를 결정한다. 이 목적을 위한 진단은 대개 세 가지 형태로 나누어 볼 수 있다.

  • 첫째, 계획된 학습단위의 목표를 성취하는 데 선행조건이 된다고 추측되는 시발행동 및 기능을 학생이 소유하고 있는가 없는가를 결정한다.
  • 둘째, 주어진 학습단위 혹은 과정의 목표를 학생이 이미 통달했는지, 그럼으로써 보다 높은 수준의 학습 프로그램을 제공해야 하는지 여부를 결정한다.
  • 셋째, 학생이 지니고 있는 흥미·성격·직업·적성·기능·선행학습 정도 등에 비추어 분류하고, 그에 따라 적절한 교수전략이나 교수방법의 대안을 제공한다.


진단평가의 둘째 형태는 교수가 진행 중일 때 주는 것으로, 이 평가의 주된 기능을 학생이 학습에서 나타내는 계속적인 결함의 원인 및 그 밑에 놓여 있는 환경을 결정하려는 것이다. 형성 평가도 물론 학습 도중의 학습결함을 진단하는 기능을 갖고 있다. 그러나 형성 평가는 학습목표에 관련해서 교수방법 및 교재 자체의 개선에 의해 학습을 개선·증진시키려는 것인 데 반해, 진단평가는 이 같은 개선으로 교정되지 않는 신체적·정서적·문화적 환경 결함을 찾으려는 데 있다.

대한민국에서 학생집단을 여러 가지 형태의 동질집단으로 분류하고 그에 따라 적절한 교수방법을 투입하고 있는 현상을 볼 수 있다. 이같은 배치기능에 관련해서 진단평가는 중요한 역할을 한다.[7]

4. 2. 형성 평가

형성 평가(形成評價, formative evaluation)는 학습 및 교수가 진행되고 있는 유동적인 상태에서 학생에게 피드백을 주고, 교육과정 및 수업 방법을 개선하기 위해 실시하는 평가이다. 이는 학생의 학습 증진뿐만 아니라 교수 방법과 교육과정 개선을 위한 목적도 가진다. 형성 평가는 학습이 완료된 후 실시하는 총합평가와 달리 학습이 진행되는 도중에 실시되므로 학습 증진 효과를 극대화해야 한다. 즉, 형성 평가를 통해 학습 증진의 증거를 확보하고, 학생이나 교사에게 부정적인 영향을 주지 않도록 해야 한다.[8]

형성 평가의 주요 특징은 다음과 같다.[8]

  • 교수·학습 개선: 형성 평가는 교수·학습이 유동적인 시기에 교과, 교수, 학습의 개선을 위해 실시된다. 학생의 학습 증진을 위해 무엇을 개선해야 할지 찾는 것이 주된 목적이며, 점수 부여, 성적 판정, 교사 능력 평가는 목적이 아니다.
  • 교사 주도 제작: 형성 평가는 교수·학습 과정을 주도하고 개선해야 할 교사가 직접 제작하는 것이 원칙이다. 총합평가나 진단평가는 평가 전문가가 제작할 수도 있지만, 형성 평가는 현재 진행 중인 프로그램에 대한 정보를 얻기 위한 것이므로 교사 자신이 제작하는 것이 더 적합하다.
  • 교육 목표 기반 평가: 형성 평가는 교육 목표 또는 교수 목표를 기반으로 하는 목표지향평가(criterion-referred evaluation)이다. 교육과정, 교과목, 교과서는 학생이 특정 목표를 달성하도록 구성되며, 교사는 학습 상황에서 이러한 목표 달성 여부를 판단한다. 목표 없이는 교육 과정이나 수업이 존재할 수 없다.


형성 평가는 설정된 목표를 학생이 만족할 만한 수준으로 성취하고 있는지 판단하고, 그렇지 못한 경우 개선점을 찾기 위한 정보를 제공하는 데 중요한 목적이 있다.[8]

4. 3. 총합 평가

'''총합평가'''(總合評價, summative evaluation)는 한 학습과제·단위·교과가 끝난 다음이나 기말(期末)·연말(年末)에 총합적으로 교육목표의 달성 정도를 평가하는 것이다. 총합평가와 형성평가의 차이점은 다음과 같다.

첫째, 평가의 목적이 다르다. 총합평가는 전체 교과목이나 혹은 그것의 중요한 부분에 걸친 부분적인 성과가 어느 정도 달성되었는지의 정도를 총평하는 것이 목적이다. 즉 형성평가가 학습의 형성에 목적이 있다면, 총합평가는 행정적 의사결정에 그 목적이 있다.

둘째, 총합평가는 대개 한 학기가 끝날 때, 1회 혹은 필요에 따라서 두 번 정도 실시하는 것이 보통이다. 때에 따라서는 1년에 한 번 실시하는 경우도 있다. 이에 비해 형성평가는 교과가 포괄하고 있는 학습과제에 적어도 한두 번씩 실시한다. 대개의 경우 학습이 시작되기 전에 진단평가를 하고, 이를 기초로 예비학습이 끝나면 본학습에 들어가서 형성평가를 수시로 실시한다. 총합평가는 학습이 끝난 다음에 실시하는 빈도가 드문, 길이가 긴 검사라고 할 수 있다.[9]

5. 평가 방법의 종류 (일본 자료 기반)

평가 방법은 다양한 기준에 따라 분류할 수 있다.

성적 평가 척도에 따라 다음과 같이 나눌 수 있다.

평가 종류설명
상대 평가다른 학생의 성적과 비교하여 평가한다.
절대 평가학생 본인의 성적만을 기준으로 평가한다.
도달도 평가학습 목표 달성 여부를 평가한다.
인정 평가교사가 학생의 수행이 만족할 만한 수준에 도달했는지 평가한다.
개인 내 평가학생 개인의 성장에 초점을 맞춰 평가한다.



평점 부여 방식에 따른 평가 방법은 다음과 같다.


  • '''n단계 평가''': 학생들의 성적 순위나 과제 달성률에 따라 여러 단계로 나누어 평가한다. 3단계, 5단계, 10단계 등 단계 설정은 다양하다. 일본에서는 5단계 평가를 할 때, 가장 좋은 평가가 '5', 가장 나쁜 평가가 '1'이 되는 경우가 많다.
  • '''관점별 평가''': 이해도, 실험 및 실습 태도, 표현력, 관심도 등을 기준으로 평가한다.


벤자민 블룸은 교육 평가를 그 기능에 따라 다음과 같이 세 가지로 분류했다.

평가 종류설명
진단 평가학습 시작 전 학습자의 학력이나 준비도를 평가하여 교사가 지도 계획을 세우는 데 활용한다.
형성 평가학습 지도 중에 실시하여 학습자의 이해도를 평가하고, 교사가 지도 계획을 변경하거나 보충 지도를 하는 데 활용한다.
총괄 평가학습 지도 종료 후 학습자의 최종 학력 습득 정도를 평가하며, 성적 부여 및 교사의 지도 반성에 활용된다.


5. 1. 성적 평가의 척도


  • 상대 평가 - 다른 학생의 성적과 비교한 평가이다.
  • 절대 평가 - 본인의 성적에 대해서만 평가한다.
  • 도달도 평가 - 도달했으면 하는 학습 항목의 목록이 공개되어 있고, 그것을 달성했는지 여부를 평가한다.
  • 인정 평가 - 본인의 수행이 교사의 납득할 만한 수준에 도달했다고 인정되는지 여부를 평가한다.
  • 개인 내 평가 (진보의 평가) - 본인의 지금까지의 수행에 대해 진보가 있었는지 여부를 평가한다.

5. 2. 평점 부여 방식


  • '''n단계 평가''' - 상대 평가의 경우, 예를 들어 정규 분포 곡선을 기준으로 하여 반에서 성적 순위에 따라, 절대 평가의 경우 과제 달성률에 따라 몇 단계로 나누어 평가한다. 3단계, 5단계, 10단계 등 단계 설정은 다양하다. 5단계 평가를 예로 들면, 일본에서는 대부분 가장 좋은 평가가 '''5''', 가장 나쁜 평가가 '''1'''이 된다. 서양에서는 종종 이것이 반대가 된다.
  • 관점별 평가 - 이해도나 실험, 실습에 대한 태도, 표현력, 관심도 등에 따라 유무로 평가한다.

5. 3. 평가의 기능 (벤자민 블룸의 분류)

벤자민 블룸은 교육 평가를 그 기능에 따라 세 가지로 분류했다.

  • 진단 평가 - 학습 지도를 시작하기 전에 실시하여, 지도 시작 전 학습자의 학력이나 준비도를 평가한다. 교사는 이 정보를 바탕으로 지도의 계획을 세운다.
  • 형성 평가 - 학습 지도 중에 실시하여, 지금까지의 지도 내용을 학습자가 어느 정도 이해했는지를 평가한다. 교사는 이 정보를 바탕으로 지도의 계획을 변경하거나, 이해가 부족한 부분 또는 이해가 부족한 학습자에게 보충적인 지도를 한다.
  • 총괄 평가 - 학습 지도가 종료된 후에 실시하여, 학습자가 최종적으로 어느 정도의 학력을 습득했는지를 평가한다. 성적을 부여하는 데 사용하며, 교사가 자신의 지도를 반성하는 자료로도 활용할 수 있다.

6. 국제적 기준

교육 평가 기준 공동 위원회는 교육 평가를 위한 세 가지 기준 세트를 발표했다. 1988년에 ''인사 평가 기준''이, 1994년에 ''프로그램 평가 기준''(제2판)[1]이, 2003년에 ''학생 평가 기준''[2]이 출판되었다.

참조

[1] 간행물 교육의 측정과 평가[서설] https://ko.wikisourc[...]
[2] 간행물 교육평가의 의의 https://ko.wikisourc[...]
[3] 간행물 교육측정의 의의 https://ko.wikisourc[...]
[4] 간행물 총평의 의의 https://ko.wikisourc[...]
[5] 간행물 측정·평가·총평의 관계 https://ko.wikisourc[...]
[6] 간행물 교육평가의 역사 https://ko.wikisourc[...]
[7] 간행물 진단평가 https://ko.wikisourc[...]
[8] 간행물 형성평가 https://ko.wikisourc[...]
[9] 간행물 총합평가 https://ko.wikisourc[...]



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com